1.3 网页数据抓取
- 网络爬虫工具:
- curl:适用于linux,但是网站持有人使用不同方法来区分你是人或者机器。如果是机器,就返回404不让你抓取
- headless 浏览器:用命令行,而不是网页浏览器
- 用很多个ip来抓取网页:ipv4地址中,AWS,Azure和Gcp都有很多ip
- 总结:
- 网络爬虫是一个强大的工具去抓取数据
- 用云可以用大量ip帮你同时抓取一些数据
- 使用浏览器的视察工具去定位HTML里的信息
- 使用谨慎,规避法律风险
References
1.3 网页数据抓取【斯坦福21秋季:实用机器学习中文版】_哔哩哔哩_bilibili